머신 러닝 머신 러닝 - 자연어 처리(2) 육아휴직관련 법안 대한민국 국회 제 1809890호 의안 nltk 토큰(빈도수 포함) 분석 토큰 빈도별 그래프 특정 단어의 빈도 확인 특정 단어가 등장하는 위치 확인 연어(collocation) : 함께 위치하는 단어들이란 뜻으로, 어휘의 조합 또는 짝을 이루는 말을 일컫는다. 빈도 분포 확인 나이브 베이즈 분류 기계 학습 분야에서 특성들 사이의 독립을 가정하는 베이즈 정리를 활용한 확률 분... python머신 러닝python 머신 러닝 - Clustering 군집(Clustering) : 비슷한 샘플을 모음 군집 중심(centroid)이라는 임의의 지점을 선택해서 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 초기 중심점 설정 -> 각 데이터는 가장 가까운 중심점에 소속 -> 중심점에 할당된 평균값으로 중심점 이동 -> 각 데이터 중심정 재할당 -> 중심점의 변경이 없으면 종료 출력 : 군집 집합 k개의 군집 중심 xi 를 가장 가까운 군집... python머신 러닝python 머신 러닝 - Cost Function 1. Cost Function 개념 Cost Function : 원래의 값과 가장 오차가 작은 가설함수 를 도출하기 위해 사용되는 함수 \theta J(\theta_{0}, \theta_{1}) = {1 \over 2m}\sum_{i=1}^{m}{(h_{\theta}(x^{i}-y^{i})^{2})} J(θ0 ,θ1 )=2m1 ∑i=1m (hθ (xi−yi)2) \theta 회귀 + Cost... python머신 러닝python 머신 러닝 - 정밀도와 재현율 정밀도(Precision)과 재현율(Recall)을 조정하는 방법 결정 임계값을 조정해 조정할 수 있지만, 두 개는 상호 보완적인 평가지표이기 때문에 하나가 오르면 다른 하나가 떨어지기 쉽다. classification_report : 평가 지표를 한번에 볼 수 있다. confusion matrix : Prediction 성능을 측정하기 위해 예측 value와 실제 value를 비교하기 위한... python머신 러닝python 머신 러닝 - Iris Classification(3) 1. 과적합 과적합(Overfitting) : 기계 학습(machine learning)에서 학습 데이터를 과하게 학습(overfitting)하는 것을 뜻한다. 일반적으로 학습 데이타는 실제 데이타의 부분 집합이므로 학습데이타에 대해서는 오차가 감소하지만 실제 데이터에 대해서는 오차가 증가하게 된다. 지도 학습 : 학습 대상이 되는 데이터에 정답을 붙여서 학습시키고 모델을 얻어 완전히 새로운... python머신 러닝python 머신 러닝 - PipeLine 지금까지 jupyter notebook 상황에서 데이터의 전처리와 여러 알고리즘을 반복 실행했다. 하이퍼파라미터의 튜닝 과정을 번갈아 하게되면 실행 순서에 혼돈이 있을 수 있다. 클래스로 진행할수도 있지만 sklearn의 Pipeline 기능을 사용할 수 있다. Pipeline : 데이터 사전 처리 및 분류의 모든 단계를 포함하는 단일 개체를 만들 수 있다. train과 test 데이터 손실... python머신 러닝python 머신 러닝 - 자연어 처리(3) 두 점 사이의 거리를 구하는 것 : 유클리드 거리( \sqrt{a^{2}+b^{2}} a2+b2 문장을 점처럼 일종의 벡터로 표현할 수 있다면 거리를 구하여 유사한 문장을 찾을 수 있다. CountVectorizer, TfidfVectorizer 등으로 문장을 벡터로 변환할 수 있다. CountVectorizer 단어들의 카운트(출현 빈도(frequency))로 여러 문서들을 벡터화, 카운트... python머신 러닝python 머신 러닝 - PCA 기초 Principal Component Analysis(PCA) : 데이터 집합 내에 존재하는 각 데이터의 차이를 가장 잘 나타내 주는 요소를 찾아내는 방법 통계 데이터 분석(주성분 찾기), 데이터 압축(차원 감소), 노이즈 제거 등 다양한 분야에서 사용 차원 축소(dimensionality reduction)와 변수 추출(feature extraction) 기법으로 널리 쓰이고 있는 주성분 분... python머신 러닝python 머신 러닝 - 와인 데이터 분석 1. 와인 데이터 개요 Wine : 분류 문제에서 Iris 꽃 데이터만큼 알려지진 않았지만 많이 사요오딘다. 인류 역사상 최초의 술로 알려져있다. 기원전 7000년 무렵 조지아-아르메이나-터키 동북부(코카서스)에서 흔적 발견 플라톤 : '신이 인간에게 내려준 선물 중 포도주만큼 위대한 가치를 지닌 것은 없다.' 와인 맛 분류 : 데이터 : 레드 와인 품질 데이터(다운로드) : 화이트 와인 품... python머신 러닝python
머신 러닝 - 자연어 처리(2) 육아휴직관련 법안 대한민국 국회 제 1809890호 의안 nltk 토큰(빈도수 포함) 분석 토큰 빈도별 그래프 특정 단어의 빈도 확인 특정 단어가 등장하는 위치 확인 연어(collocation) : 함께 위치하는 단어들이란 뜻으로, 어휘의 조합 또는 짝을 이루는 말을 일컫는다. 빈도 분포 확인 나이브 베이즈 분류 기계 학습 분야에서 특성들 사이의 독립을 가정하는 베이즈 정리를 활용한 확률 분... python머신 러닝python 머신 러닝 - Clustering 군집(Clustering) : 비슷한 샘플을 모음 군집 중심(centroid)이라는 임의의 지점을 선택해서 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 초기 중심점 설정 -> 각 데이터는 가장 가까운 중심점에 소속 -> 중심점에 할당된 평균값으로 중심점 이동 -> 각 데이터 중심정 재할당 -> 중심점의 변경이 없으면 종료 출력 : 군집 집합 k개의 군집 중심 xi 를 가장 가까운 군집... python머신 러닝python 머신 러닝 - Cost Function 1. Cost Function 개념 Cost Function : 원래의 값과 가장 오차가 작은 가설함수 를 도출하기 위해 사용되는 함수 \theta J(\theta_{0}, \theta_{1}) = {1 \over 2m}\sum_{i=1}^{m}{(h_{\theta}(x^{i}-y^{i})^{2})} J(θ0 ,θ1 )=2m1 ∑i=1m (hθ (xi−yi)2) \theta 회귀 + Cost... python머신 러닝python 머신 러닝 - 정밀도와 재현율 정밀도(Precision)과 재현율(Recall)을 조정하는 방법 결정 임계값을 조정해 조정할 수 있지만, 두 개는 상호 보완적인 평가지표이기 때문에 하나가 오르면 다른 하나가 떨어지기 쉽다. classification_report : 평가 지표를 한번에 볼 수 있다. confusion matrix : Prediction 성능을 측정하기 위해 예측 value와 실제 value를 비교하기 위한... python머신 러닝python 머신 러닝 - Iris Classification(3) 1. 과적합 과적합(Overfitting) : 기계 학습(machine learning)에서 학습 데이터를 과하게 학습(overfitting)하는 것을 뜻한다. 일반적으로 학습 데이타는 실제 데이타의 부분 집합이므로 학습데이타에 대해서는 오차가 감소하지만 실제 데이터에 대해서는 오차가 증가하게 된다. 지도 학습 : 학습 대상이 되는 데이터에 정답을 붙여서 학습시키고 모델을 얻어 완전히 새로운... python머신 러닝python 머신 러닝 - PipeLine 지금까지 jupyter notebook 상황에서 데이터의 전처리와 여러 알고리즘을 반복 실행했다. 하이퍼파라미터의 튜닝 과정을 번갈아 하게되면 실행 순서에 혼돈이 있을 수 있다. 클래스로 진행할수도 있지만 sklearn의 Pipeline 기능을 사용할 수 있다. Pipeline : 데이터 사전 처리 및 분류의 모든 단계를 포함하는 단일 개체를 만들 수 있다. train과 test 데이터 손실... python머신 러닝python 머신 러닝 - 자연어 처리(3) 두 점 사이의 거리를 구하는 것 : 유클리드 거리( \sqrt{a^{2}+b^{2}} a2+b2 문장을 점처럼 일종의 벡터로 표현할 수 있다면 거리를 구하여 유사한 문장을 찾을 수 있다. CountVectorizer, TfidfVectorizer 등으로 문장을 벡터로 변환할 수 있다. CountVectorizer 단어들의 카운트(출현 빈도(frequency))로 여러 문서들을 벡터화, 카운트... python머신 러닝python 머신 러닝 - PCA 기초 Principal Component Analysis(PCA) : 데이터 집합 내에 존재하는 각 데이터의 차이를 가장 잘 나타내 주는 요소를 찾아내는 방법 통계 데이터 분석(주성분 찾기), 데이터 압축(차원 감소), 노이즈 제거 등 다양한 분야에서 사용 차원 축소(dimensionality reduction)와 변수 추출(feature extraction) 기법으로 널리 쓰이고 있는 주성분 분... python머신 러닝python 머신 러닝 - 와인 데이터 분석 1. 와인 데이터 개요 Wine : 분류 문제에서 Iris 꽃 데이터만큼 알려지진 않았지만 많이 사요오딘다. 인류 역사상 최초의 술로 알려져있다. 기원전 7000년 무렵 조지아-아르메이나-터키 동북부(코카서스)에서 흔적 발견 플라톤 : '신이 인간에게 내려준 선물 중 포도주만큼 위대한 가치를 지닌 것은 없다.' 와인 맛 분류 : 데이터 : 레드 와인 품질 데이터(다운로드) : 화이트 와인 품... python머신 러닝python